类别不合时宜的对象计数旨在将图像中的所有对象计数相对于示例框或类名称,又称几个弹药和零照片计数。在本文中,我们提出了一个基于检测的几射击对象和零射击对象的广义框架。我们的框架结合了两个基础模型的出色优势,而不会损害其零拍的能力:(i)SAM将所有可能的对象分割为掩膜建议,以及(ii)剪辑来对建议进行分类以获得准确的对象计数。但是,这种策略遇到了效率过高的障碍,而无法局部和区分的小型拥挤的物体。要解决这些问题,我们的框架称为PSECO,遵循三个步骤:点,细分和计数。具体来说,我们首先提出了一个类不足的对象局部 - 为SAM提供准确但最小的提示,因此,这不仅会降低计算成本,而且还避免了缺少小对象。此外,我们采用了一种广义的对象分类,该对象分类利用剪辑图像/文本嵌入为分类器,遵循层次知识蒸馏,以获得层次掩盖建议中的歧视性层状。对FSC-147,可可和LVISMON的广泛实验结果,即PSECO在几次/零摄像对象计数/检测中都可以实现最先进的性能。
主要关键词